本文介绍了对体现药物(Genea)挑战2022的非语言行为的生成和评估的重生条目。Genea挑战提供了处理后的数据集并进行众包评估,以比较不同手势生成系统的性能。在本文中,我们探讨了基于多模式表示学习的自动手势生成系统。我们将WAVLM功能用于音频,FastText功能,用于文本,位置和旋转矩阵功能用于手势。每个模态都投影到两个不同的子空间:模态不变和特定于模态。为了学习模式间不变的共同点并捕获特定于模态表示的字符,在训练过程中使用了基于梯度逆转层的对抗分类器和模态重建解码器。手势解码器使用与音频中的节奏相关的所有表示和功能生成适当的手势。我们的代码,预培训的模型和演示可在https://github.com/youngseng/represture上找到。
translated by 谷歌翻译
Benefiting from masked visual modeling, self-supervised video representation learning has achieved remarkable progress. However, existing methods focus on learning representations from scratch through reconstructing low-level features like raw pixel RGB values. In this paper, we propose masked video distillation (MVD), a simple yet effective two-stage masked feature modeling framework for video representation learning: firstly we pretrain an image (or video) model by recovering low-level features of masked patches, then we use the resulting features as targets for masked feature modeling. For the choice of teacher models, we observe that students taught by video teachers perform better on temporally-heavy video tasks, while image teachers transfer stronger spatial representations for spatially-heavy video tasks. Visualization analysis also indicates different teachers produce different learned patterns for students. Motivated by this observation, to leverage the advantage of different teachers, we design a spatial-temporal co-teaching method for MVD. Specifically, we distill student models from both video teachers and image teachers by masked feature modeling. Extensive experimental results demonstrate that video transformers pretrained with spatial-temporal co-teaching outperform models distilled with a single teacher on a multitude of video datasets. Our MVD with vanilla ViT achieves state-of-the-art performance compared with previous supervised or self-supervised methods on several challenging video downstream tasks. For example, with the ViT-Large model, our MVD achieves 86.4% and 75.9% Top-1 accuracy on Kinetics-400 and Something-Something-v2, outperforming VideoMAE by 1.2% and 1.6% respectively. Code will be available at \url{https://github.com/ruiwang2021/mvd}.
translated by 谷歌翻译
基于变压器的模型已在主要的视频识别基准上取得了最佳性能。与基于CNN的模型相比,这些模型受益于自我发项机制,显示出更强的建模长期依赖性能力。但是,大量的计算开销是由于自我注意力的二次复杂性在大量令牌之上,限制了现有的视频变压器在具有有限资源(例如移动设备)的应用程序中的使用。在本文中,我们将移动格式扩展到视频移动格式,该版本将视频体系结构分解为轻量级的3D-CNN,用于本地上下文建模,并以并行方式将变压器模块用于全局交互建模。为了避免通过计算视频中大量本地补丁之间的自我注意力而产生的重大计算成本,我们建议在变形金刚中使用很少的全球令牌(例如6)将整个视频中的整个视频用于与3D-CNN交换信息 - 注意机制。通过有效的全球时空建模,视频移动形式显着提高了替代轻型基线的视频识别性能,并且在各种视频识别任务上,低FLOP策略的其他有效CNN模型从500m到6G总鞋类胜过其他基于CNN的模型。值得注意的是,视频移动格式是第一个基于变压器的视频模型,它限制了1G失败范围内的计算预算。
translated by 谷歌翻译
人工智能的最新进展在很大程度上受益于更好的神经网络体系结构。这些体系结构是昂贵的反复试验过程的产物。为了简化此过程,我们开发了Archexplorer,这是一种视觉分析方法,用于了解神经体系结构空间并汇总设计原理。我们方法背后的关键思想是通过利用体系结构之间的结构距离来解释建筑空间。我们将成对距离的计算提出解决,以解决全对最短路径问题。为了提高效率,我们将此问题分解为一组最短的路径问题。时间复杂性从O(KN^2n)降低到O(KNN)。根据它们之间的距离,构造在层次上聚集。已经开发了基于圆圈的架构可视化,以传达群集和每个集群中架构的本地社区之间的全球关系。提出了两项​​案例研究和一项分析后,以证明Argsplorer在总结设计原理和选择表现更好的架构方面的有效性。
translated by 谷歌翻译
Vision Transformer(VIT)最近由于其出色的模型功能而引起了计算机视觉的极大关注。但是,大多数流行的VIT模型都有大量参数,从而限制了其在资源有限的设备上的适用性。为了减轻这个问题,我们提出了Tinyvit,这是一个新的小型,有效的小型视觉变压器,并通过我们提议的快速蒸馏框架在大型数据集上预处理。核心思想是将知识从大型模型转移到小型模型,同时使小型模型能够获得大量预处理数据的股息。更具体地说,我们在预训练期间应用蒸馏进行知识转移。大型教师模型的徽标被稀疏并提前存储在磁盘中,以节省内存成本和计算开销。微小的学生变形金刚自动从具有计算和参数约束的大型审计模型中缩小。全面的实验证明了TinyVit的功效。它仅具有21m参数的Imagenet-1k上的前1个精度为84.8%,与在Imagenet-21K上预读的SWIN-B相当,而使用较少的参数则使用了4.2倍。此外,增加图像分辨率,TinyVit可以达到86.5%的精度,仅使用11%参数,比SWIN-L略好。最后但并非最不重要的一点是,我们在各种下游任务上展示了TinyVit的良好转移能力。代码和型号可在https://github.com/microsoft/cream/tree/main/tinyvit上找到。
translated by 谷歌翻译
对象检测器的复杂性过度权衡是资源约束视觉任务的关键问题。先前的作品强调了用有效的骨干实现的检测器。在这项工作中,研究了对检测负责人对提案处理的这种权衡的影响。假设提高的检测效率需要范式转移,朝着不平等的建议处理,将更多的计算分配给良好的建议,而不是贫穷的建议。这可以更好地利用可用的计算预算,从而为同一失败提供了更高的精度。我们将其作为一个学习问题提出,目的是将操作员分配给检测头的建议,以便将总计算成本受到限制,并且精确度最大。关键发现是,可以将这种匹配作为一个函数,该函数将每个提案嵌入到操作员的单速代码中。尽管此功能诱导了复杂的动态网络路由机制,但它可以由简单的MLP实现,并通过现成的对象检测器端到端学习。这种“动态建议处理”(DPP)显示出明确的计算复杂性的明确余量,表现出优于最先进的端到端对象检测器(DETR,稀疏R-CNN)。
translated by 谷歌翻译
利用大规模数据可以在许多计算机视觉任务上引入性能增长。不幸的是,当对象检测中训练多个数据集下的单个模型时,这并没有发生。我们观察到两个主要障碍:分类学差异和边界框注释不一致,这引入了不同数据集中的域间隙,从而阻止我们进行联合培训。在本文中,我们表明,可以通过简单地将对象查询在每个数据集的类别嵌入语言嵌入中来有效地解决这两个挑战。我们设计一个检测中心以根据数据集的不同分布在类别嵌入中动态调整查询。与以前的方法试图学习所有数据集的联合嵌入方式不同,我们的适应方法可以利用语言嵌入作为通用类别的语义中心,同时学习对属于不同数据集的特定类别的语义偏见来处理注释差异并弥补域间隙。这些新颖的改进使我们能够同时在多个数据集上端到端培训单个探测器,以充分利用它们的优势。在多个数据集上进行联合培训的进一步实验证明了对单独的单个微型检测器的显着性能提高。
translated by 谷歌翻译
专家(MOE)的混合物能够有效地扩展视觉变压器。但是,它需要禁止计算资源来训练大型MOE变压器。在本文中,我们提出了专家的残留混合物(RMOE),这是在下游任务(例如分割和检测)上针对MOE视觉变压器的有效训练管道。 RMOE通过上限的MOE培训获得了可比的结果,而仅引入较小的额外培训成本,而不是较低的非MOE训练管道。效率得到了我们的关键观察的支持:MOE变压器的权重可以纳入无独立的核心和输入依赖性残差。与重量核心相比,可以通过更少的计算资源(例如,在下游数据上进行填充)进行有效训练重量。我们表明,与当前的MOE培训管道相比,我们获得了可比的结果,同时节省了30%以上的培训成本。与最先进的非MOE变压器(例如SWIN-T / CVT-13 / SWIN-L)相比,我们在ADE20K分割方面获得+1.1 / 0.9 / 1.0 MIOU的增益,+1.4 / 1.6 / 0.6 / 0.6 AP获得MS-Coco对象检测任务,额外培训成本不到3%。
translated by 谷歌翻译
本文研究了视频变压器的BERT预借鉴。考虑到近期图像变形金刚的伯爵预借鉴成功,这是一个简单但值得学习的延伸。我们介绍了Decouples将视频表示学习学习的BEVT进入空间代表学习和时间动态学习。特别地,BEVT首先在图像数据上执行屏蔽图像建模,然后在视频数据上与屏蔽视频建模联合进行屏蔽图像建模。这种设计具有两个观察的动机:1)在图像数据集上学习的变压器提供了体面的空间前沿,可以缓解视频变压器的学习,这通常是从划痕训练的计算密集型的时间。 2)鉴别的线索,即空间和时间信息,需要在不同的视频中进行正确的预测,由于阶级的阶级和阶级际变化而不同。我们对三个具有挑战性的视频基准进行了广泛的实验,其中BEVT达到了非常有前途的结果。在动力学400上,哪些识别主要依赖于歧视性空间表示,BEVT达到了强大的监督基线的可比结果。在某种东西 - V2和潜水48上,其中包含依靠时间动态的视频,BEVT优于所有替代基准,分别实现了70.6%和86.7%的最新性能。
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译